卷积神经网络(CNN)已经实现了医学图像细分的最先进性能,但需要大量的手动注释进行培训。半监督学习(SSL)方法有望减少注释的要求,但是当数据集大小和注释图像的数量较小时,它们的性能仍然受到限制。利用具有类似解剖结构的现有注释数据集来协助培训,这有可能改善模型的性能。然而,由于目标结构的外观不同甚至成像方式,跨解剖结构域的转移进一步挑战。为了解决这个问题,我们提出了跨解剖结构域适应(CS-CADA)的对比度半监督学习,该学习适应一个模型以在目标结构域中细分相似的结构,这仅需要通过利用一组现有现有的现有的目标域中的限制注释源域中相似结构的注释图像。我们使用特定领域的批归归量表(DSBN)来单独地标准化两个解剖域的特征图,并提出跨域对比度学习策略,以鼓励提取域不变特征。它们被整合到一个自我兼容的均值老师(SE-MT)框架中,以利用具有预测一致性约束的未标记的目标域图像。广泛的实验表明,我们的CS-CADA能够解决具有挑战性的跨解剖结构域移位问题,从而在视网膜血管图像和心脏MR图像的帮助下,在X射线图像中准确分割冠状动脉,并借助底底图像,分别仅给定目标域中的少量注释。
translated by 谷歌翻译
深神经网络(DNNS)在各种机器学习(ML)应用程序中取得了巨大成功,在计算机视觉,自然语言处理和虚拟现实等中提供了高质量的推理解决方案。但是,基于DNN的ML应用程序也带来计算和存储要求的增加了很多,对于具有有限的计算/存储资源,紧张的功率预算和较小形式的嵌入式系统而言,这尤其具有挑战性。挑战还来自各种特定应用的要求,包括实时响应,高通量性能和可靠的推理准确性。为了应对这些挑战,我们介绍了一系列有效的设计方法,包括有效的ML模型设计,定制的硬件加速器设计以及硬件/软件共同设计策略,以启用嵌入式系统上有效的ML应用程序。
translated by 谷歌翻译
在硬件知识可分辨率神经结构中搜索(DNA),计算硬件度量梯度以执行架构搜索是具有挑战性的。现有工作依赖于线性近似,对定制硬件加速器的有限支持。在这项工作中,我们提出了端到端的硬件感知DNA(EH-DNA),无缝集成端到端硬件基准测试,以及全自动DNA,以在各种平台上提供硬件有效的深神经网络,包括边缘GPU,边缘TPU,移动CPU和定制加速器。考虑到期望的硬件平台,我们建议学习一种可分解​​模型,预测DNA的神经网络架构的端到端硬件性能。我们还介绍了E2E-PERF,用于定制加速器的端到端硬件基准测试工具。 CIFAR10和Imagenet的实验表明,EH-DNA平均提高了硬件性能,平均为您的定制加速器和现有硬件处理器的$ 1.6 \倍$ 1.6 \倍。
translated by 谷歌翻译
深度神经网络通常需要准确和大量注释,以在医学图像分割中实现出色的性能。单次分割和弱监督学习是有前途的研究方向,即通过仅从一个注释图像学习新类并利用粗标签来降低标签努力。以前的作品通常未能利用解剖结构并遭受阶级不平衡和低对比度问题。因此,我们为3D医学图像分割的创新框架提供了一次性和弱监督的设置。首先,提出了一种传播重建网络,以基于不同人体中的解剖模式类似的假设将来自注释体积的划痕投射到未标记的3D图像。然后,双级功能去噪模块旨在基于解剖结构和像素级别来改进涂鸦。在将涂鸦扩展到伪掩码后,我们可以使用嘈杂的标签培训策略培训新课程的分段模型。一个腹部的实验和一个头部和颈部CT数据集显示所提出的方法对最先进的方法获得显着改善,即使在严重的阶级不平衡和低对比度下也能够稳健地执行。
translated by 谷歌翻译
整个腹部器官分割起着腹部损伤诊断,放射治疗计划的重要作用,并随访。然而,划定肿瘤学家所有腹部器官手工费时且非常昂贵的。近日,深学习型医学图像分割显示,以减少人工划定努力的潜力,但它仍然需要培训的大型精细注释的数据集。虽然在这个任务很多努力,但仍然覆盖整个腹部区域与整个腹腔脏器分割准确和详细的注解几个大的图像数据集。在这项工作中,我们建立了一个大型的\ textit【W】孔腹部\ textit {} OR甘斯\ textit {d} ataset(\ {textit WORD})的算法研究和临床应用的发展。此数据集包含150个腹部CT体积(30495片),并且每个卷具有16个机关用细像素级注释和涂鸦基于稀疏注释,这可能是与整个腹部器官注释最大数据集。状态的最先进的几个分割方法是在该数据集进行评估。而且,我们还邀请了临床肿瘤学家修改模型预测测量深度学习方法和真实的肿瘤学家之间的差距。我们进一步介绍和评价这一数据集一个新的基于涂鸦,弱监督分割。该工作腹部多器官分割任务提供了新的基准,这些实验可以作为基准对未来的研究和临床应用的发展。 https://github.com/HiLab-git/WORD:代码库和数据集将被释放
translated by 谷歌翻译
最近,我们看到了基于深神经网络(DNN)的视觉跟踪解决方案的快速发展。一些跟踪器将基于DNN的解决方案与判别相关滤波器(DCF)相结合,以提取语义特征并成功地提供最新的跟踪准确性。但是,这些解决方案是高度计算密集型的,需要长时间处理时间,从而导致无抵押的实时性能。为了提供高精度和可靠的实时性能,我们提出了一个名为Siamvgg的新颖跟踪器。它结合了卷积神经网络(CNN)主链和互相关操作员,并利用示例图像中的功能以进行更准确的对象跟踪。 Siamvgg的体系结构是根据VGG-16自定义的,其参数由示例性图像和所需的输入视频帧共享。我们在OTB-2013/50/100和Dot 2015/2016/2017数据集中证明了拟议的暹罗,具有STATE-ORT-TEA-ART精度,同时保持在GTX 1080TI上运行的50 FPS的体面实时性能。与Dot2017挑战中的ECO和C-COT相比,我们的设计可以实现预期平均重叠(EAO)的预期平均重叠(EAO)。
translated by 谷歌翻译
We propose a network for Congested Scene Recognition called CSRNet to provide a data-driven and deep learning method that can understand highly congested scenes and perform accurate count estimation as well as present highquality density maps. The proposed CSRNet is composed of two major components: a convolutional neural network (CNN) as the front-end for 2D feature extraction and a dilated CNN for the back-end, which uses dilated kernels to deliver larger reception fields and to replace pooling operations. CSRNet is an easy-trained model because of its pure convolutional structure. We demonstrate CSRNet on four datasets (ShanghaiTech dataset, the UCF CC 50 dataset, the WorldEXPO'10 dataset, and the UCSD dataset) and we deliver the state-of-the-art performance. In the Shang-haiTech Part B dataset, CSRNet achieves 47.3% lower Mean Absolute Error (MAE) than the previous state-of-theart method. We extend the targeted applications for counting other objects, such as the vehicle in TRANCOS dataset. Results show that CSRNet significantly improves the output quality with 15.4% lower MAE than the previous state-ofthe-art approach.
translated by 谷歌翻译
Both goal-agnostic and goal-oriented tasks have practical value for robotic grasping: goal-agnostic tasks target all objects in the workspace, while goal-oriented tasks aim at grasping pre-assigned goal objects. However, most current grasping methods are only better at coping with one task. In this work, we propose a bifunctional push-grasping synergistic strategy for goal-agnostic and goal-oriented grasping tasks. Our method integrates pushing along with grasping to pick up all objects or pre-assigned goal objects with high action efficiency depending on the task requirement. We introduce a bifunctional network, which takes in visual observations and outputs dense pixel-wise maps of Q values for pushing and grasping primitive actions, to increase the available samples in the action space. Then we propose a hierarchical reinforcement learning framework to coordinate the two tasks by considering the goal-agnostic task as a combination of multiple goal-oriented tasks. To reduce the training difficulty of the hierarchical framework, we design a two-stage training method to train the two types of tasks separately. We perform pre-training of the model in simulation, and then transfer the learned model to the real world without any additional real-world fine-tuning. Experimental results show that the proposed approach outperforms existing methods in task completion rate and grasp success rate with less motion number. Supplementary material is available at https: //github.com/DafaRen/Learning_Bifunctional_Push-grasping_Synergistic_Strategy_for_Goal-agnostic_and_Goal-oriented_Tasks
translated by 谷歌翻译
无监督的终身学习是指随着时间的流逝学习的能力,同时在没有监督的情况下记住以前的模式。以前的作品假设了有关传入数据(例如,了解类边界)的强大先验知识,这些数据是在复杂且不可预测的环境中无法获得的。在本文中,以现实世界情景的启发,我们通过类外的流媒体数据正式定义了在线无监督的终身学习问题,该数据是非IID和单次通道。由于缺乏标签和先验知识,该问题比现有的终身学习问题更具挑战性。为了解决这个问题,我们提出了自我监督的对比终身学习(比例),该学习提取并记住了知识。规模围绕三个主要组成部分进行设计:伪监督的对比损失,自我监督的遗忘损失以及统一子集选择的在线记忆更新。这三个组件旨在协作以最大程度地提高学习表现。我们的损失功能利用成对相似性,因此消除了对监督或先验知识的依赖。我们在IID和四个非IID数据流下进行了全面的规模实验。在所有设置上,缩放量优于最佳最新算法,在CIFAR-10,CIFAR-100和Subimagenet数据集上,提高了高达6.43%,5.23%和5.86%的KNN精度。
translated by 谷歌翻译
我们提出了一种新颖的框架,以便长期分类大型时间序列数据。长时间序号(L-TSC)是一个具有挑战性的问题,因为DATAOFTEN包含大量无关的信息到Checlassification目标。无关期限会降低分类的性能,而系统相关性是未知的。本文提出了一个不确定性,意识到多个型号(MIL)框架,以识别最相关的初期性。预测性的不确定性使得设计指示迫使MIL模型从判别判别期间学习的Anittent机制。此外,预测的不确定性yields是一个原则性的估计器,以识别是否是预测的istrustworthy。我们还通过培训在其可用性上​​进行单独培训并进行不确定性意识融合表的最终预测来培训另一个模型ToAcModate不可靠的预测。系统评估是进行自动识别系统(AIS)数据,该数据是识别和跟踪现实世界船只的COL。经验结果DemonstriteStriteStepriteStepritisht,该方法可以基于轨迹有效地检测血管的阀门,以及与其他可用数据模块(在我们的实验中使用的合成 - ApertureerAdar或SAR图像)的不确定性令人遗憾地进一步改善检测精度。
translated by 谷歌翻译